داده کاوی2
1- اختلاف بین متن کاوی وهستی شناسی
محققان علوم زیستی ,یافته های خودرادرنشریات علمی ارائه می دهند.امروزه این مدارک بطور الکترونیکی (باکامپیوتر) توزیع می شوندوبطورفزاینده ای بطورخودکارپردازش می شوند. به این مفهوم است که این یافته هاوداده ها به پایگاه داده های علمی واساسی اضافه می شوند(گنجانده می شوند) . بطور کلی,روش ها برای همین منظور تحت اصطلاح " متن کاوی " گنجانیده می شوند که شامل روش هایی مربوط به زمینه های یادگیری ماشینی ,بازیابی اطلاعات وپردازش زبان طبیعی می شود.
به عنوان مثال,راه حل هایی مبتنی برمتن کاوی را,برای تشخیص تاثیرمتقابل پروتئین – پروتئین ازشرایط کنترل کننده ژن وبرای شرح کارآمدی پروتئین هاوبرای وبرای تشخیص واولویت بندی
ژن های مرتبط بابیماری وبرای تجزیه وتحلیل نتایج ازآزمایشاتی باتوان بازدهی بالا,گسترش یافته است. درطی سال های گذشته,متن کاوی برای علوم زیستی منافع قابل توجهی داشته ودرحال حاضریک بخش دائمی کنفرانس هاوکارگاههای آموزشی محسوب می شودومنجربه حوادث چالش برانگیز بین اللملی درمقیاس بزرگ شده است.
( به عنوان مثال: KDD-CUP,Genomics track at TREC,Biocreative2&2,Bionlp )
دلیل برای این سود این است که نشریات زیادی ,فشارکاری غیرقابل تحملی رابرروی یک محقق وپیشرفت های امیدوارکننده ای درپردازش زبان طبیعی ویادگیری ماشین راتحمیل می کنندکه راه حل این مشکل را شکل می دهدبه شرطی که آنهابابرنامه های زیست پزشکی یکی شوند. متن کاوی بایدازعهده اختلاف بین دادهای خام متنی وبازنمودنتایج معناداردرپایگاه داده برآید.
به عنوان مثال,عادی سازی کردن وقایع درمتن به منظوربازنمودهای ادراکی ازوقایع باتوجه به دانش کتاب درسی. امیداست که این خلاءرا هستی شناسی پرکندباارائه ی بازنمودساختاری ازدانش زیست پزشکی. اگرچه هستی شناسی زیستی جامع وبزرگی درحال حاضربرای بسیاری از موضوعات مربوطه ,دردسترس است(به عنوان مثال ,هستی شناسی ژنی, هستی شناسی توالی,هستی شناسی فنوتایپ وغیره).
اما هنوزثابت نشده است که دروضع ایده آل,چه نوع منابعی برای راه حل های متن کاوی مناسب است. بررسی برروی اهداف تحقیق درمتن کاوی ودرطراحی هستی شناسی ,به این نکته پی بردیم که هستی شناسی برای کمک به متن کاوی طراحی نشده است بلکه نسبتا" به منظوربهبودشرح محتوای پایگاه داده می باشد. اگرچه راه حل متن کاوی قصدپرکردن پایگاه داده بامحتوای را ارائه دارند,اما آن واقعیت امراین نیست که راه حل متن کاوی به آسانی مفاهیم مربوط به هستی شناسی رادرادبیات پیداکنند وحتی فراترارآن, منابع مربوط به هستی شناسی برای کمک به راه حل های متن کاوی درمعنی طراحی شده است.
که شرایط مربوط به هستی شناسی بامطالبات سیستم پردازش زبان طبیعی مناسب است. با این حال,جامعه متن کاوی ازمنابع هستی شناسی برای ربط دادن شواهدایجادشده ازادبیات به مفاهیم مربوط به هستی شناسی ,استفاده می کند. علاوه براین,هستی شناسی نه تنها یک ابزار است ,بلکه هم چنین ,هدفی برای تحقیق متن کاوی به شمار می رود. بسیاری ازروش ها ابداع شده اند که بطور خودکاریانیمه خودکار,هستی شناسی رامی سازندیاهستی شناسی موجودراغنی می سازند که این امرباکمک روابط وشرایط منتخب ازمجموعه متنی زیست پزشکی می باشد.